Fork me on GitHub

MapReduce 递归子目录和合并小文件

递归子目录

设置mapreduce.input.fileinputformat.input.dir.recursive=true,这个参数是客户端参数,可以在MapReduce中设置,也可以在mapred-site.xml中设置.在mapreduce程序中如

1
2
// 递归子目录
job.getConfiguration().setBoolean("mapreduce.input.fileinputformat.input.dir.recursive",true);

CombineTextInputFormat 合并小文件

1
2
3
4
5
6
7
//设置split大小
job.getConfiguration().setLong("mapreduce.input.fileinputformat.split.maxsize", 128 * 1024 * 1024);
//job.setInputFormatClass(TextInputFormat.class);
// 合并小文件
job.setInputFormatClass(CombineTextInputFormat.class);
------------- The endThanks for reading-------------